#aprendizaje por refuerzo

¿Es la diversidad clave para la manipulación robótica escalable?

Investigación revela que la diversidad de tareas es más crítica que la cantidad de demostraciones. Aprende a escalar datos robóticos eficazmente.

2026-06-05 · 2 min

Aprendizaje de autocorrección en modelos visión-lenguaje mediante aumento de trayectorias

Descubre cómo Octopus-8B logra autocorrección eficiente en VLMs mediante aumento de trayectorias, superando a otros modelos con un 1.0 de puntuación y menor tiempo de entrenamiento.

2026-06-05 · 2 min

Agentic Monte Carlo: Aprendizaje por Refuerzo en Agentes Caja Negra

Optimiza agentes LLM de caja negra sin entrenarlos. Agentic Monte Carlo supera a GRPO. Aprende inferencia bayesiana.

2026-06-05 · 2 min

SHALA-LLM: Manejo Inteligente de Etiquetas Ambiguas en Alineación de LLMs

Descubre cómo SHALA-LLM usa aprendizaje por refuerzo para gestionar etiquetas ambiguas en alineamiento de LLMs, mejorando precisión y acuerdo entre anotadores.

2026-06-05 · 2 min

Descuento asimétrico en GRPO para RL eficiente

SA-AH-GRPO reduce la varianza un 3.6x y mejora la precisión en razonamiento matemático con descuento asimétrico por token. Resultados en GSM8K con Qwen.

2026-06-05 · 2 min

Representation learning: la clave para escalar el RL multitarea

MR.Q demuestra que las representaciones predictivas escalan el RL multitarea sin planificación, superando a modelos del mundo.

2026-06-05 · 2 min

Modelos Mundiales de Difusión Autoregresiva para Evaluar Agentes LLM

Descubre ADWM, un marco de evaluación offline que simula entornos interactivos para estimar el rendimiento de agentes LLM sin necesidad de ejecución en línea.

2026-06-05 · 2 min

AsyncWebRL: RL multi-paso eficiente para agentes web visuales

Descubre AsyncWebRL: un enfoque asíncrono que acelera el entrenamiento de agentes web visuales con RL multi-paso, logrando hasta 2.9x más rapidez y mejor rendimiento.

2026-06-05 · 1 min

Crédito denso insuficiente: Optimización calibrada por evidencia para agentes LLM

ECPO calibra el crédito de acciones intermedias en agentes LLM, mejorando el rendimiento en ALFWorld y WebShop hasta un 7% con solo 0.1% de sobrecarga.

2026-06-05 · 2 min

Aprendizaje por refuerzo con regularización KL y mala especificación

Descubre cómo la regularización KL mejora el aprendizaje por refuerzo ante modelos incorrectos. Nuevas garantías teóricas para algoritmos robustos. ¡Lee más!

2026-06-05 · 2 min

MDP-GRPO: Optimización de Políticas Grupales Estabilizada para Instrucciones Multi-Restricción

Descubre MDP-GRPO, un método que estabiliza GRPO bajo recompensas discretas, mejorando el cumplimiento de restricciones hasta un 5%. Ideal para IA confiable.

2026-06-05 · 1 min

Estimaciones de ventaja para gradientes de política Max@K

Descubre cómo MaxPO optimiza el post-entrenamiento de LLMs con una nueva línea base Leave-Two-Out que centra la ventaja y reduce la varianza del gradiente.

2026-06-05 · 1 min

OrderGrad: optimiza más allá de la media con gradientes de estadísticos de orden

Descubre OrderGrad, un método unificado para optimizar objetivos de estadísticos de orden como VaR, CVaR y medias recortadas en aprendizaje por refuerzo. Ideal para tareas de riesgo y robustez.

2026-06-05 · 3 min

Abstracciones estado-acción adaptativas por distorsión de tasa

Descubre cómo el principio de refinamiento dinámico de abstracciones mejora el aprendizaje por refuerzo, usando distorsión de tasa para lograr rendimiento óptimo con compresión.

2026-06-05 · 3 min

Optimización de córner con aprendizaje por refuerzo gráfico

Optimiza tácticas de córner con RL gráfico. Supera a métodos tradicionales en 3000+ jugadas de la Premier League.

2026-06-05 · 2 min

AgentJet: Marco de entrenamiento enjambre para RL agentivo

AgentJet: marco enjambre para RL agentivo. Entrena agentes heterogéneos con tolerancia a fallos, edición en vivo y acelera 10x. Ideal para investigadores.

2026-06-04 · 2 min

Escalando Agentes Auto-Evolutivos con Memoria Paramétrica

Marco TMEM: agentes IA auto-evolutivos con memoria paramétrica y LoRA. Aprenden de la experiencia, mejorando su comportamiento sin reinicios.

2026-06-04 · 2 min

Neetyabhas: marco para políticas públicas con incertidumbre en modelos de agente

Descubre cómo Neetyabhas optimiza políticas públicas con incertidumbre y comportamiento. Un enfoque basado en IA.

2026-06-04 · 2 min

SCI-PRM: Un modelo de recompensa de proceso para verificación científica

Descubre cómo Sci-PRM, un modelo de recompensa consciente de herramientas, mejora la verificación científica en biología, química y física.

2026-06-04 · 2 min

Fog of Love: Agentes virtuosos con aprendizaje por refuerzo basado en afinidad

Descubre cómo la afinidad localizada mejora el aprendizaje por refuerzo para crear agentes de IA virtuosos en el juego Fog of Love. Resultados superiores.

2026-06-04 · 2 min